基于XGBoost算法對茶葉揉捻工藝參數(shù)的研究
茶友網(wǎng)首頁 個人中心
下載APP 下載APP
手機訪問 手機端二維碼

基于XGBoost算法對茶葉揉捻工藝參數(shù)的研究

茶產(chǎn)業(yè)作為我國特色優(yōu)勢產(chǎn)業(yè),承擔(dān)著支撐茶區(qū)經(jīng)濟、滿足健康消費、穩(wěn)定擴大就業(yè)、服務(wù)鄉(xiāng)村振興的重要任務(wù)。揉捻是茶葉加工的一道關(guān)鍵工序,主要有三個目的:一是揉捻茶葉成形,為成品茶外形打基礎(chǔ),二是使茶葉細胞破損、茶汁溢出,三是為后續(xù)茶葉加工做準備。揉捻機是目前能夠完成茶葉揉捻工藝的主要設(shè)備,主要由揉捻盤、揉捻桶與加壓裝置、傳動機構(gòu)等結(jié)構(gòu)組成,揉桶在曲柄等機構(gòu)的帶動和控制下,在揉捻盤上做相對偏揉捻軸中心的橫向旋轉(zhuǎn)。茶葉在揉桶中隨著揉桶的運動不斷往復(fù)翻轉(zhuǎn),并在揉盤上進行來回揉搓,逐步卷縮成條。

目前,我國茶葉花色繁多,揉捻工藝要求各有不同,揉捻速度、揉捻壓力、揉捻時間設(shè)置不能一概而論,難以給出揉捻參數(shù)具體確定值。揉捻茶葉時,制茶者需要有一定的制茶經(jīng)驗,根據(jù)實際的鮮葉狀況和環(huán)境條件對工藝進行選擇,揉捻工藝受人主觀能動性影響,易造成揉捻品質(zhì)不一。張問采等提出利用大數(shù)據(jù)技術(shù),對茶葉原產(chǎn)地的溫度、氣候、海拔等地理信息進行系統(tǒng)收集,建立茶葉加工工藝參數(shù)庫,以確保茶葉揉捻加工工藝的統(tǒng)一性和標準性。新技術(shù)與揉捻工藝的結(jié)合能夠智能選擇揉捻工藝參數(shù),對當(dāng)前茶葉揉捻設(shè)備發(fā)展具有一定現(xiàn)實意義。

文章基于XGBoost算法設(shè)計茶葉揉捻推薦系統(tǒng),通過對鮮葉等級、茶葉種類、茶葉產(chǎn)地以及揉捻機型號作為系統(tǒng)輸入,能夠?qū)θ嗄硐嚓P(guān)參數(shù)進行推薦。

▲ 浙江春江茶葉機械揉捻機組

01

方法原理

1、隨機森林算法

隨機森林算法(Random Forest)是一種集成學(xué)習(xí)方法,通過構(gòu)建多個決策樹來進行分類或回歸。隨機森林是從原始訓(xùn)練樣本集N中重復(fù)抽取k個樣本生成新的訓(xùn)練樣本集合,然后根據(jù)自助樣本集生成k個分類樹組成隨機森林,新數(shù)據(jù)的分類結(jié)果按分類樹投票多少形成的分數(shù)而定。其實質(zhì)就是將多個決策樹合并在一起,大大提高決策樹的運算效率,每棵樹都是從一個獨立樣本中抽取出來的,并且其分布也是一致的,所以分類誤差取決于每棵樹的分類能力以及樹之間的相關(guān)性。CART決策樹是隨機森林算法弱分類器的核心部分,優(yōu)點在于:當(dāng)數(shù)據(jù)集的因變量是離散型數(shù)值時,此樹就是分類樹;當(dāng)數(shù)據(jù)集的因變量是連續(xù)性數(shù)值時,此樹就是回歸樹,預(yù)測值可以用葉節(jié)點觀察的均值來表示。

隨機森林算法容易實現(xiàn),在訓(xùn)練速度方面和訓(xùn)練高度并行化方面也具有明顯優(yōu)勢,還能進行模型融合,提高模型的準確性和穩(wěn)定性。并且由于采用了隨機采樣,可以訓(xùn)練出方差小、泛化能力強的模型。

2、XGBoost算法

XGBoost算法(eXtreme Gradient Boosting)是一種強大集成學(xué)習(xí)方法,同時支持CART樹和線性分類器為基分類器,基于前向分布算法實現(xiàn)加法模型的集成學(xué)習(xí)方法。集成模型的基本理念是通過構(gòu)建一系列弱基礎(chǔ)模型來構(gòu)建一個強大的模型。XGBoost算法核心思想是通過持續(xù)的增加樹,不停地進行特征分裂來生長一棵樹、添加一個樹的過程,實際上就是學(xué)習(xí)一個新函數(shù)的過程,擬合上次預(yù)測的殘差。構(gòu)建出k棵樹,并且每棵樹都能夠模型化,從而模型化出每個樣本的分值,從而達到對未知值的準確估計。通過觀察這個樣本的特征,會發(fā)現(xiàn)它會落在每棵樹的一個對應(yīng)的葉節(jié)點上,每個葉節(jié)點對應(yīng)一個分數(shù)。最后,只需要將每棵樹的相應(yīng)分數(shù)相加,就可以得到樣本的預(yù)測值。

XGBoost算法具有以下優(yōu)點:

(1)簡單易用,提供API方便用戶使用。

(2)靈活性高,可應(yīng)用于多種類型數(shù)據(jù)集和任務(wù),包括分類、回歸、排名和推薦等。

(3)準確率高,在分類和回歸問題上可以達到其它算法難以匹敵的準確率。

(4)可解釋強,提供豐富的特征重要性評估方法,可幫助用戶理解模型預(yù)測過程。

3、支持向量機

支持向量機(Support Vector Machine,SVM)是一種常用的機器學(xué)習(xí)算法,主要用于分類和回歸問題。它的基本原理是通過找到一個最優(yōu)的超平面,將數(shù)據(jù)分為不同的類別。最優(yōu)超平面是n-1維的線性子空間,其中n是數(shù)據(jù)的特征維數(shù)。例如,如果數(shù)據(jù)有兩個特征,那么超平面是一維的線性子空間,也就是一個直線;如果數(shù)據(jù)有三個特征,那么超平面是個二維的線性子空間,也就是一個平面。在二維空間中,超平面就是一個直線,它將數(shù)據(jù)分為兩個類別。通過SVM,可以利用一些數(shù)學(xué)技術(shù),將復(fù)雜的高維數(shù)據(jù)轉(zhuǎn)換為簡單的低維數(shù)據(jù),從而有效地解決高維數(shù)據(jù)分析的問題。

支持向量機算法具有適應(yīng)性廣泛、可解釋性強、計算復(fù)雜度低的優(yōu)點。支持向量機算法可用于線性和非線性問題,在分類和回歸任務(wù)中表現(xiàn)出色,預(yù)測精度高,還能夠清晰表示分類和回歸的決策邊界和數(shù)據(jù)分布情況。

02

模型搭建

1、模型搭建及訓(xùn)練測試

根據(jù)XGBoost的算法原理并使用Python語言,構(gòu)建出XGBoost算法測試模型框架,如圖1所示。一共分為四個部分,一是樣本數(shù)據(jù)預(yù)處理,二是參數(shù)調(diào)優(yōu),三是模型訓(xùn)練,四是模型預(yù)測。

(1)數(shù)據(jù)預(yù)處理

文章數(shù)據(jù)是由廣西昭平仙峰茶廠提供,獲取時間為2023年3~4月。在當(dāng)?shù)?位制茶師傅的指導(dǎo)下,采用6CR-35型茶葉揉捻機進行數(shù)據(jù)獲取。獲取相關(guān)數(shù)據(jù)信息如表1所示。試驗獲取的數(shù)據(jù)還不能直接使用,因為初始數(shù)據(jù)中包含揉捻品質(zhì)指標不符合揉捻機性能指標的揉捻參數(shù)數(shù)據(jù),會降低模型學(xué)習(xí)效率和預(yù)測精度。在數(shù)據(jù)使用前需要對數(shù)據(jù)進行預(yù)處理,此次試驗預(yù)處理主要為數(shù)據(jù)清理和數(shù)據(jù)劃分。

· 數(shù)據(jù)清理

在當(dāng)?shù)刂撇鑾煾抵笇?dǎo)下采用6CR-35型茶葉揉捻機對三級鮮葉制成紅茶春茶來進行揉捻,揉捻過程中受人主觀能動性影響。試驗獲取的100組數(shù)據(jù)中,有8組數(shù)據(jù)的破茶率、成條率、細胞破碎率不符合35型茶葉揉捻機標準,這些數(shù)據(jù)對后續(xù)揉捻參數(shù)預(yù)測沒有相關(guān)性,模型分析預(yù)測數(shù)據(jù)時需要去除這些數(shù)據(jù)。

· 數(shù)據(jù)劃分

將剩余92組數(shù)據(jù)按照9∶1的比例分為訓(xùn)練樣本和測試樣本。訓(xùn)練樣本用于算法迭代學(xué)習(xí),測試樣本用于檢測算法預(yù)測效果。

(2)參數(shù)調(diào)優(yōu)

XGBoost算法參數(shù)包括通用參數(shù)、Booster參數(shù)和學(xué)習(xí)目標參數(shù)。通用參數(shù)能夠進行宏觀函數(shù)控制,Booster參數(shù)控制決策樹生成和組合過程,學(xué)習(xí)目標參數(shù)能夠控制訓(xùn)練目標。

· 通用參數(shù):

①booster:用于選擇每次迭代模型的類別。booster參數(shù)有g(shù)btree和gblinear兩種選擇,gbtree是基于樹結(jié)構(gòu)來構(gòu)建模型,而gblinear是基于線性分類器來構(gòu)建模型。②silent:用于決定運行過程中是否產(chǎn)生輸出。

· Booster參數(shù)

①n_estimators:樹的數(shù)量,用于控制模型的復(fù)雜度和訓(xùn)練時間。②learning_rate:學(xué)習(xí)率,用于控制模型參數(shù)的更新速度,并且通過不斷降低學(xué)習(xí)率來提升模型的準確性。③gamma:控制節(jié)點分裂需要的最小目標函數(shù)下降量,用于控制樹的生長和防止過擬合。④subsample:樣本采樣比例,用于控制每個樹節(jié)點上的樣本數(shù)量。⑤colsample_bytree:控制每棵樹中列的子采樣比例。⑥colsample_bylevel:控制每一層中列的子采樣比例。⑦max_depth:樹的最大深度,用于控制樹的復(fù)雜度,并避免過擬合。⑧max_delta_step:樹模型權(quán)重改變的最大步長,控制每個樹模型權(quán)重改變的最大步長,防止過擬合。⑨lambda和alpha:正則項中λ和γ的權(quán)重,減少模型過擬合。⑩scale_pos_weight:調(diào)整正樣本的權(quán)重,提高模型的分類準確率。

· 學(xué)習(xí)目標參數(shù)

①objective:指訓(xùn)練模型時所采用的損失函數(shù),常見的有reg:linear、reg:logistic、binary:logistic等。②eval_metric:評估模型性能指標,常見的有rmse、mae、errors等。

· GridSearch是一種參數(shù)調(diào)優(yōu)方法,通過在指定的參數(shù)范圍內(nèi)搜索最優(yōu)參數(shù)組合來優(yōu)化模型性能。其步驟如下:

①確定需要調(diào)優(yōu)的參數(shù)和參數(shù)取值范圍。②將參數(shù)和參數(shù)取值范圍組合成一個參數(shù)網(wǎng)格。③通過采用交叉驗證的方式,對各種參數(shù)組合進行全面的性能評估。④選擇最優(yōu)的參數(shù)組合,并使用所有訓(xùn)練數(shù)據(jù)重新訓(xùn)練模型。⑤對數(shù)據(jù)進行測試,評估模型性能。

在實際應(yīng)用中,由于參數(shù)組合數(shù)量可能很大,所以使用GridSearch時需要注意以下幾點:①盡量限制參數(shù)取值范圍,避免搜索空間過大。②優(yōu)先選擇影響模型性能最大的參數(shù)進行調(diào)優(yōu)。③結(jié)合模型的特性和實際需求,選擇合適的交叉驗證方式。④可以使用并行計算加速參數(shù)搜索。

利用網(wǎng)格尋優(yōu)調(diào)優(yōu)方法分別對茶葉揉捻工藝中揉捻轉(zhuǎn)速(A)、空揉時間(B)、一次輕壓(C)、一次輕壓時間(D)、重壓(E)、重壓時間(F)、二次輕壓(G)、二次輕壓時間(H)的參數(shù)進行網(wǎng)格尋優(yōu),其最優(yōu)參數(shù)組合如表2所示。

(3)模型評價指標

在評價模型的預(yù)測能力時,通常采用平均絕對誤差(Mean Absolute Error,MAE)、均方根誤差(Root Mean Squared Error,RMSE)、平均絕對百分比誤差(Mean Absolute Percentage Error,MAPE)作為模型評價指標。平均絕對誤差是預(yù)測值與真實值之間誤差絕對值的平均值,反映了預(yù)測誤差的實際情況;均方根誤差是預(yù)測值與真實值之間誤差平方和與樣本數(shù)量比值的平方根,反映了誤差分布的離散程度;平均絕對百分比誤差是比較預(yù)測值與真實值之間相對誤差絕對值的平均值的大小,反映了預(yù)測誤差與真實值的相對大小。其表達式如式1、2、3所示,RMSE指標、MAE指標、MAPE指標得分越小,預(yù)測效果越好。

2、預(yù)測結(jié)果分析

三種算法模型對揉桶轉(zhuǎn)速、空揉時間、一次輕壓、一次輕壓時間、重壓、重壓時間、二次輕壓、二次輕壓時間預(yù)測評價結(jié)果分別如表3所示。從RMSE、MAE、MAPE三項評價指標結(jié)果來看,XGBoost模型評價指標數(shù)值最小、算法優(yōu)勢顯著,這表明在最優(yōu)參數(shù)組合的選擇下,XGBoost算法模型的預(yù)測能力較好,因此系統(tǒng)將XGBoost算法作為茶葉揉捻推薦系統(tǒng)的核心,僅使用XGBoost算法模型進行下一步分析預(yù)測。

03

推薦系統(tǒng)軟件設(shè)計

1、系統(tǒng)環(huán)境

系統(tǒng)硬件環(huán)境和軟件環(huán)境具體介紹如表4和表5所示。

2、系統(tǒng)主要功能實現(xiàn)及展示

(1)信息獲取模塊

茶葉推薦系統(tǒng)的信息獲取界面可讀取用戶選擇或輸入的相關(guān)參數(shù),完成相關(guān)數(shù)據(jù)輸入功能。用戶在該界面上選擇茶葉種類、茶葉類型等信息,并將上述參數(shù)以文本讀取方式發(fā)送至數(shù)據(jù)處理層,進行相關(guān)揉捻參數(shù)預(yù)測。

在信息獲取界面中需要對茶葉等級、茶葉種類、揉捻機型號、茶葉產(chǎn)地信息進行輸入。2016年,中國工業(yè)和信息化部頒布了JB/T 12835—2016行業(yè)標準確定茶葉等級,并以其特定的長度和比例,對茶葉級別進行了精確的劃分。鮮葉長度不大于30 mm的占60%以上的為一級鮮葉、鮮葉長度不大于40 mm的占70%以上的為二級鮮葉、鮮葉長度不大于50 mm的占70%以上的為三級鮮葉、其它鮮葉為四級鮮葉。茶葉種類根據(jù)茶葉品種和制茶季節(jié)進行劃分,主要劃分為紅茶春茶、紅茶秋茶、綠茶春茶、綠茶秋茶四個類別。茶葉揉捻機型號按照揉捻桶直徑大小可分為25型、35型、45型、55型等。

(2)揉捻參數(shù)推薦模塊

信息獲取層模塊將獲得的茶葉相關(guān)信息按照其所屬的茶葉等級、茶葉種類、揉捻機型號以及茶葉產(chǎn)地信息進行分類,找到對應(yīng)數(shù)據(jù)庫。根據(jù)歷史制茶經(jīng)驗數(shù)據(jù)中揉捻品質(zhì)數(shù)據(jù)和揉捻工藝數(shù)據(jù)對XGBoost模型訓(xùn)練,此系統(tǒng)內(nèi)將最優(yōu)揉捻品質(zhì)參數(shù)作為模型輸入來預(yù)測茶葉揉捻工藝參數(shù)。

此揉捻參數(shù)推薦系統(tǒng)還具有數(shù)據(jù)保存、用戶管理、操作日志、幫助文檔功能,數(shù)據(jù)保存指的是可對當(dāng)前獲取信息以及推薦信息按照當(dāng)前鮮葉等級、茶葉種類、揉捻機型號、茶葉產(chǎn)地的不同進行分類保存。用戶管理模塊僅涉及個人信息管理,用戶可通過設(shè)定好的賬號密碼進行登錄。操作日志管理記錄系統(tǒng)運行情況,主要是系統(tǒng)運行過程中所產(chǎn)生的信息日志。幫助文檔主要闡述了此推薦系統(tǒng)設(shè)計目的以及其使用場景。

04

推薦系統(tǒng)測試

1、試驗?zāi)康呐c試驗指標

揉捻推薦系統(tǒng)主要功能是根據(jù)不同類型鮮葉狀態(tài)來推薦其揉捻參數(shù),為了驗證推薦揉捻參數(shù)的實用性,主要選取了茶葉揉捻后的碎茶率、成條率、細胞破壞率進行測定。

(1)碎茶率測定

試驗碎茶率測定是通過稱重完成的。在揉捻試驗完后,取出茶葉進行稱重,稱重后通過網(wǎng)篩進行篩選,再將篩除的碎末碎葉進行稱重。碎茶重量再除以茶葉總重得到破碎率,具體公式如式4所示。

式中:S為碎茶率;mS為碎茶重量;m為茶葉總重量。

(2)成條率測定

試驗成條率測定也是通過稱重完成的。在揉捻試驗結(jié)束后,取出茶葉進行稱重,挑出成條進行稱重。成條率可通過成條葉重量除以茶葉總重,具體公式如式5所示。

式中:C為成條率;mC為成條茶葉重量;m 為茶葉總重。

(3)細胞破壞率測定

采用計算機圖像處理技術(shù)來進行茶葉細胞破壞率測定。取揉捻好的茶葉若干,放入100 ℃水浴處理15 min;在當(dāng)前溫度和處理時間下,破碎細胞外溢,茶多酚氧化形成茶色素并對受損細胞進行染色。將處理過的茶葉展開在白紙上進行拍照;將圖片導(dǎo)入電腦、采用Grabcut算法刪除背景;根據(jù)顏色特征計算染色面積與葉片面積比值,得到細胞破壞率。

2、推薦系統(tǒng)參數(shù)試驗

現(xiàn)對一批鮮葉進行揉捻參數(shù)推薦,鮮茶產(chǎn)地來源于廣西昭平,鮮葉等級為三級,采用35型茶葉揉捻機進行揉捻,所要制成茶葉種類為紅茶春茶。揉捻參數(shù)推薦系統(tǒng)接收到信息獲取層所傳送的相關(guān)信息,找到鮮葉等級為三級鮮葉、茶葉種類為紅茶春茶、揉捻機型號為35型、茶葉產(chǎn)地為廣西昭平的數(shù)據(jù)庫。由于當(dāng)前茶葉揉捻機采用的是固定位置揉捻,所以試驗中以下降距離為控制參數(shù)。對數(shù)據(jù)庫里歷史揉捻參數(shù)數(shù)據(jù)進行訓(xùn)練,并推薦出茶葉揉捻工藝參數(shù),揉捻轉(zhuǎn)速35 r/min、空壓揉捻時間為15 min、一次輕壓位置為8 cm處、揉捻時間為11 min、重壓壓力位置為13 cm處、重壓時間10 min、第二次輕壓壓力大小為7 cm處、揉捻時間為13 min。將揉捻工藝參數(shù)應(yīng)用到35型茶葉揉捻機進行揉捻,揉捻結(jié)束后取出部分茶葉,進行篩選、稱重,計算破茶率和成條率,并用計算機圖像處理技術(shù)檢測茶葉揉捻后細胞破碎率。

查找茶葉揉捻機作業(yè)性能指標表,可以得出6CR-35型揉捻機揉捻紅茶,揉捻加工后的作業(yè)性能指標應(yīng)滿足成條率≥85%、碎茶率≤4.2%、茶葉細胞破壞率≥83%。茶葉揉捻機揉捻結(jié)果如表6所示,試驗1是根據(jù)20次揉捻數(shù)據(jù)進行推薦,試驗2是根據(jù)40次揉捻數(shù)據(jù)進行推薦,試驗3是根據(jù)60次揉捻數(shù)據(jù)進行推薦。從表中試驗1、試驗2、試驗3可以看出隨著試驗次數(shù)增加,揉捻葉的成條率逐漸增加、碎茶率逐漸降低、茶葉細胞破碎率逐漸增加。由于現(xiàn)有歷史揉捻數(shù)據(jù)量較少,揉捻參數(shù)推薦系統(tǒng)推薦數(shù)據(jù)還不完善。試驗4是根據(jù)80次揉捻數(shù)據(jù)進行推薦,可以看出揉捻后的碎茶率、成條率以及細胞破壞率已達到揉捻機作業(yè)性能指標。因此,隨著后續(xù)試驗數(shù)據(jù)增加,推薦系統(tǒng)不斷進行學(xué)習(xí)優(yōu)化,按照此系統(tǒng)推薦參數(shù)進行揉捻,茶葉揉捻品質(zhì)將越來越好。

05

討論

茶葉揉捻品質(zhì)易受制茶師傅主觀因素影響,通過對鮮葉等級、茶葉種類、茶葉產(chǎn)地以及揉捻機型號來確定揉捻工藝參數(shù),能夠保證茶葉揉捻品質(zhì)穩(wěn)定。文章將XGBoost算法用于茶葉揉捻參數(shù)推薦,利用真實揉捻工藝相關(guān)參數(shù)對預(yù)測模型進行驗證,在參數(shù)推薦過程中展現(xiàn)了較強性能。根據(jù)此算法設(shè)計出茶葉揉捻參數(shù)推薦系統(tǒng),并對推薦系統(tǒng)推薦參數(shù)進行試驗。從推薦系統(tǒng)參數(shù)試驗可以看出揉捻后的碎茶率、成條率以及細胞破壞率已達到揉捻機作業(yè)性能指標,并且隨著試驗數(shù)據(jù)增加,推薦系統(tǒng)不斷學(xué)習(xí)優(yōu)化,按照推薦參數(shù)進行茶葉揉捻,揉捻品質(zhì)將越來越好。此揉捻推薦系統(tǒng)對當(dāng)前茶葉揉捻設(shè)備發(fā)展具有一定現(xiàn)實意義。

作者簡介:

陳俠

安徽宿州人,南京農(nóng)業(yè)大學(xué)人工智能學(xué)院碩士研究生,研究方向為智能農(nóng)業(yè)裝備。

通訊作者:

柳軍

副研究員,南京農(nóng)業(yè)大學(xué)人工智能學(xué)院碩士生導(dǎo)師,研究方向為智能農(nóng)機裝備。

來源:中國茶葉加工

如有侵權(quán)請聯(lián)系刪除